Day 15 Glue ETL Job 教學 - Part 2 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

第 12 屆 iThome 鐵人賽

DAY 15

0

AI & Data

AWS 數據處理與分析實戰系列第 15 篇

Day 15 Glue ETL Job 教學 - Part 2

12th鐵人賽

2020-09-29 13:34:37

1808 瀏覽

分享至

完成 S3 資料源的準備後，我們來看如何使用 Glue ETL Job，先來介紹 Spark 的部分

首先創建一個 Glue Job

第一個設定頁面是 Job 的基本設定，跟運算有關的都在這邊進行設定
- IAM role：這邊的 Role 使用 Day 6 所創建的 Role(ITGlue)
- Type：Type 的部分先選擇 Spark
- Glue version：選擇最新的 Spark 2.4, Python 3(Glue version 2.0)
- Monitoring options：這邊建議 Job metrics 與 Continuous logging 都打勾啟用，可以讓我們在遇到運算失敗時有資訊可以 Troubleshooting

再當前頁面繼續往下可以看到 Security configuration, script libraries, and job parameters (optional) 的選單，這邊可以設定是否加密、Import 而外所需的 Python library，以及設定要使用的運算資源大小
- Worker Type：此參數可以設定要使用的運算類型
  - Standard：此執行類型可以應付單純的資料轉移、資料過濾、欄位拆分或合併
  - G.1X：如果需要進行 Join、Group、對資料進行計算時，選擇此類型會比較適合，因為在執行這些運算時會使用較多的記憶體
  - G.2X：進行更複雜的 ETL 計算工作時可能會需要更多的記憶體，這時就可以選擇此類型的運算資源
- Number of workers：可以把這個參數想成有多少台 VM 進行運算，每個VM 會根據所選擇的 Worker Type 會有不同的 CPU、Memory
  - Standard 的 VM 有 4 Core 16G Memory，但每台 VM 會執行兩個 Task
  - G.1X 的 VM 有 4 Core 16G RAM，每台 VM 只會執行一個 Task，所以 Task 可以有完整的 16G Memory 可以用
  - G.2X 的 VM 有 8 Core 32G RAM，每台 VM 只會執行一個 Task

其他設定可以維持在默認的狀態下即可

Day 14 Glue ETL Job 教學 - Part 1

Day 16 Glue ETL Job 教學 - Part 3

系列文

AWS 數據處理與分析實戰共 30 篇

目錄

RSS系列文訂閱系列文

14 人訂閱

完整目錄

熱門推薦

{{ item.subject }}

{{ item.channelVendor }} | {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19855 篇

完賽人數

528 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙